查看原文
其他

新范式创投秘笈解读-引领硅谷开源大模型创投范式“第3极” -「AI²Paradigm」:暨DG&Nat专访-有关AI民主化

ai汤源 AI范儿 2023-08-21
图|汤源
编译|汤源/匡萃彪
AI²Paradigm-AI范儿专稿硅谷开源大模型创投模式


DG&Nat如何引领硅谷开源大模型创投范式第“3”极?

▩DG和Nat是谁?
Daniel Gross
- Cue联合创始人,一家做搜索引擎的公司,被Apple在2013年收购
- 2013年并入苹果后负责AI与搜索项目(DRI模式)直至2017年
- 退出苹果后从事创业公司早期投资,投资眼光很毒,逐渐做大:
▩Uber▩Instacart▩Coinbase▩github▩Opendoor
▩Airtable▩Figma▩Rippling▩Gusto▩Notion▩Deel
- 目前与从github退出的Nat联手继续在开源大模型社区寻找投资,金额在$1M-10M之间
Nat Friedman
自称互联网一代(from 1991);目前住在加州,身兼多重身份:投资者、企业家以及开发者;因热爱Richard Feynman前往MIT读书
- 曾创立过2家公司,其中一家公司2016被微软收购后与CEO Satya共事,并在2017年说服微软收购了github,于2018-2021年作为github的CEO
- 与DG结识于Cue早期在YC孵化期,后续应该有多次合作(尤其在github),目前与DG联手继续在开源大模型社区寻找投资,最近一次是投资了在开源LLM社区极具潜力的llama.cpp项目

▩DG&Nat有关AI民主化的专访
DG和Nat进入AI范儿「AI²Paradigm」大模型范式研究视线是源于@benthompson在其博客Stratechery的一篇专访:关于人工智能民主化的DG&Nat专访(An Interview With Daniel Gross and Nat Friedman about the Democratization of AI)。
访谈原文非常长,二位都是资深大厂高管,对业界认知深刻独到,主持的@benthompson也非常能prompt,涉及这波AI现象的信息量超密集,访谈时间发生于2022年10月ChatGPT发布前,特编译于本文后面作为附录。
▩第3极基石之一:nat.dev试水与llama.cpp项目的投资
再次关注到Nat是他搞的一个LLMs的游乐场(playground)项目:nat.dev,尤其是llama开源后,包括huggingface推出的huggingGPT和GPT4All项目,都可以在nat.dev上体验,还可以同时与多个GPT prompt,并进行比较。除了线上运行的版本https://nat.dev,也是一个开源项目:https://github.com/nat/openplayground,尤其是另一个开源LLM-llama.cpp项目,可以在个人PC上的openplayground中轻松运行7B或者更高的llama.cpp推理模型做本地prompt。
就在最近llama.cpp项目推出支持Apple Silicon的GPU,更是使得7B的llama.cpp在本地可以跑得飞快。笔者最近也在自己的MBP上尝了个鲜,运行4bit 整数量化后的llama 7B模型,可以跑到每秒大于40tokens的飞速,而且完全跑在GPU上。
“笔者在自己的M2Pro MBP上试跑llama.cpp 7B”
近日社区传来消息,llama.cpp的作者(@ggerganov)刚刚被硅谷天使投资组合Nat和DG看中并投资,然后明显看到llama.cpp的迭代加速,最新的PR又现实llama.cpp可以全面支持CUDA GPU加速,使得一块消费级显卡上运行的7B模型可以跑到超过100tokens每秒的速度,这无疑会进一步激发llama.cpp的本地化推理模型的应用场景。
“llama.cpp项目宣布完全支持CUDA GPU加速”
▩第3极基石之二:为开源社区初创团队提供的顶级大炼丹炉-Andromeda Cluster
就这这两天,DG&Nat更进一步,宣布为初创公司建立一个顶级大炼丹炉-仙女座星系(Cluster也称作集群)(Andromeda Cluster):一个由2512 H100 (314节点+3.2T IB网络互连)组成的GPU算力集群,提供10exaflops算力。足以训练65B的llama,而且比meta当初用的21天预训练时间减少一半到约10天。
“DG&Nat宣布推出为初创企业服务的仙女座GPU算力集群”
▩第3极基石之三:早已启动的AIGrant项目
加上AI产品孵化器项目(aigrant.org),DG&Nat在AI开源及初创业界的布局已然成形。(在附录专访最后专门有谈到AIGrant项目)
“DG&Nat大模型创投第3极的3个基石”
DG的多金(基于过去投资项目的回报如其早期投资的Figma就在去年被Adobe 200亿美金收购)+ Nat的技术背景与开源精神的狂热,这对硅谷天使投资组合格局完全打开了,看来要引领AI开源及初创业界啊,期待期待!
应该也会给注意力在投资的AI范儿朋友们提供一个极好的投资新模式,某种意义上DG&Nat学习吸收了微软投资OpenAI的模式,在大模型开源社区创业界搞了个复制。从大模型创投以Google/Meta/Miscrosoft等传统大厂为1极,以OpenAI LP/Anthropic等新创AGI/ASI独角兽为另1极,无疑DG&Nat在AI开源及初创业界的这一系列布局,可以算做是大模型创投范式“第3极”。

附:DG&Nat天然互补组合+AI创投3基石=大模型创投第3极

▩大模型炼丹炉(AI Training Cluster)-andromedacluster.com
▩大模型试验场(AI Deployment Playground)-nat.dev
▩大模型孵化器(AI Product Incubater)-aigrand.org

▩第3极背后的开源推手:Meta AI- LLaMA与I-JEPA的开源
而大模型开源背后的推手Meta更是动作连连,Meta AI首席科学家Yann LeCun,一直以怼OpenAI GPT这类auto-regressive LLMs为己任,并多次在各种会议上推广自家的基础模型理念 - world model。
“Meta AI首席科学家Yann LeCun主导的World Model”
之前笔者一直私下调侃LeCun说:Talk is cheap, show me the model。这不,这周Meta AI就宣布了I-JEPA-自监督计算机视觉预测大模型,开源、论文和代码&模型一键三连,当然一如既往没有说可以开源商用,但无疑又会借社区力量大力推进world model的进展。
“Meta AI宣布开源I-JEPA大模型”
由此,笔者对于以Meta开源战略为背后推手,以DG&Nat在创投层面推动的大模型军备竞赛“第3极”充满期待。
彩蛋预告:相比于DG&Nat的天使创投组合,关注开源社区力量与AI民主化,硅谷创投巨头a16z明显是另一种风格的投资组合;有意思的是a16z当年的slogan是 Software Is Eating the World,而今天显然是Models Anywhere的世界,Models Is Eating the Software!敬请期待AI范儿的下一期解读。


附:AI²Paradigm v3

▩大模型炼丹(pre-training) (v1. AIGC)
▩大模型挖矿(prompting) (v1.AIGC)
▩大模型蒸馏(distillation) (v2. Models Anywhere)

▩大模型智能体(promptless) (v3. Intelligent Agents)


附:炼丹指南-现实很残酷,无数致力于硅基智能的有生智能体数十年来前赴后继,目前来看,也就OpenAI赌对了

图片来源:

https://github.com/Mooler0410/LLMsPracticalGuide

https://arxiv.org/pdf/2303.18223.pdf



附录:DG&Nat专访-有关人工智能民主化(An Interview With Daniel Gross and Nat Friedman about the Democratization of AI)

“DG&Nat的专访文章发布于2022年10月6日”

我一般不接受做投资者的专访,但今天是个例外。(笔者注:看来@benthompson为这次专访颇费了一番功夫)
DG(Daniel Gross)创立了被苹果收购并整合到iOS中的搜索引擎Cue,并于2013年至2017年在苹果领导机器学习工作,然后成为YCombinator的合伙人,然后过渡到天使投资。
Nat Friedman共同创立了Xamarin,这是一款开源的跨平台SDK,于2016年被微软收购;弗里德曼领导了微软对 2018 年 GitHub 的收购,并在去年之前一直担任这家以开发人员为中心的公司的首席执行官;他现在也专注于天使投资。

注:为了读起来更清晰,本访谈稍作编辑。以下被访者发言均加粗标注“DG”或“NF”,其余斜体为主持者@benthompson。

    话题(Topics)

Home on the Internet | Transformers and Large Language Models | GitHub Copilot | Centralization and Decentralization | Stable Diffusion | Is AI Sustaining or Disruptive? | Deflationary AI

▩安家互联网(Home on Internet)

纳特-弗里德曼(Nat)和丹尼尔-格罗斯(DG),很高兴能与你们进行这次Stratechery访谈。在我们进入手头准备的话题之前,也就是AI,我一会儿会说说这次访谈的起因,但我在这些采访中喜欢做的一件事就是更多地了解人们的背景。这有点棘手,因为我想这是第一次,我和你在现实生活中是朋友,所以我知道你的背景,但对于那些不知道你是谁的人来说,给我一点关于你的来历。丹尼尔,你为什么不先说呢?

DG:太棒了,谢谢你邀请我们来这里。我最初来自以色列的耶路撒冷。我生于斯长于斯的,其物理的与我所经历的数字的非常不同的世界与生活。我在一个正统的家庭长大,那不是一个技术至上的世界,但我在互联网上找到了自己,最终就像我认为我们中的许多人一样,我觉得更多的是在网上获得成长,而不是在线下的耶路撒冷;尽管我承认,以色列也算一个非常大的科技中心--耶路撒冷与特拉维夫完全不同,这有点像将京都与东京相比较。我很年轻的时候就来到了硅谷,最后创办了一个叫Cue的搜索引擎公司,它从硅谷的一些VC那里筹集了一些资金,最后在2013年被苹果收购。我随后在苹果公司负责搜索和机器学习,大约有三年半的时间。

基本上,我相信很多人都知道,苹果有一个非常独特的方式来建立一个组织,其中有组织结构,然后有一个叫做DRI(Directly Responsible Individual)模型的东西,这是一个建立在它之上的虚拟组织,没有保证年金。因此,每年在苹果公司都有不同的DRI,用于不同的大事情

DRI是指直接负责的个人。

DG:是的。所以你的名字会出现在每张幻灯片上,我想这是史蒂夫[乔布斯]确保问责制和突出能力的系统性方法,让人们对组织中的项目负责,无论他们在哪里。在许多方面,我是这种方式的接受者,尽管当我们被收购时,史蒂夫已经不在了。我想我当时23岁,正在为苹果公司管理机器学习,因为DRI模式,也可能因为收购,我被扔到了组织的一个相当高层的位置。我做了一段时间,那是一个不同的机器学习时代,我们会讨论这个问题,这个架构当时还没有完全发明出来。我记得我们非常拼命地尝试做模型,用键盘做智能的东西,而且仍在进行中。

(笑)特别是键盘,对吗?

DG:就当我不知道。

感同身受的话,有两件事我非常喜欢。第一,关于在不同的世界或虚拟世界和实体世界中成长的这一点,因为我与此有很大的关系。我在威斯康星州的一个小镇上长大,周围的人甚至不知道互联网是什么。我很早就在我的推特上写了 "安家在互联网上",这已经成为生活在国外的一个非常具体的东西,它是一个决定性的特征,绝对是以类似方式长大的人,你肯定会觉得这是一个共同的文化,只是这种文化不是在一个物理世界,而是在网上。

另一点是苹果公司的问题。我欠苹果公司很多,因为当我在商学院时,我曾在台湾当过英语老师,我想在技术领域工作,甚至没有人愿意面试我或给我一份工作。有一个苹果公司的招聘经理跟我说:"这是我很久以来见过的最奇怪的职业路径。你被录用了。"实际上,我几乎没有经过任何面试,但她说:"我们发现在苹果公司收获真的很重要--我们在赌你的背景的怪异性。你可能是好的,也可能是坏的,这只是一个实习机会。"往后,我最终没有在苹果公司工作,但在我的简历上有苹果公司,就打开了一大堆门。我可以看到那里与这个DRI的做法有联系,一个23岁的丹尼尔-格罗斯负责机器学习,为什么不呢?

DG:我认为从我老板的角度来看,它的好处是,DRI基本上意味着你负责做这些事情,通常被称为帐篷杆,今年对我们来说是大事情,你不保证明年会这样。因此,后来当我要确定谁将成为各种事情的DRI时,这个决定要容易得多,因为你不会陷入传统的组织架构图中的这种任期问题,在这种情况下,你会提升某人,而你基本上不能真正降级。这是一个了不起的公司,我认为它是非常不寻常的,我认为关于它消亡的传言曾经被大大夸大了--现在它们也许被正确地表述了,因为每个人都认为他们在世界的顶端。

我记得当初我们被苹果公司收购时,我想苹果公司的股票价值4000亿美元左右,我们手里还有另一个收购报价,来自当时的一家估值为数十亿美元初创公司。我记得我在想,那家公司的估值可能会翻一番或三番,但苹果公司不可能--我的意思是那只是一个大数字,谷歌金融App那个时候还不支持市值万亿的公司--所以这永远不可能成功,公司市值只是上升到999B然后溢出,但是是的,事后来看,它真的有一个令人难以置信的走势。
然后我离开了苹果。我作为合伙人在Y Combinator工作了一段时间,他们最初资助了我,当时我还是个无名小卒,只有18岁,所以我想把这种资助带给其他人。我在Y Combinator发起了一个人工智能项目,基本上帮助投资人工智能公司。这又是大型语言模型(LLM)革命之前的事情,我们今天可能会讨论这个话题,然后我就离开了,在过去的几年里,我一直在与Nat进行临时合作,真的。我们在投资初创企业时就认识了很久。在我被苹果公司收购后,我拿着我得到的现金,非常愚蠢地投资于这些早期阶段的企业,这些企业在当时非常小。我得到了关于资金分配的各种指示,也许你想把你净资产的10%或20%投资于初创企业,我没有真正正确地进行计算,突然发现我净资产的99.9%都投资于初创企业,但这些公司最后变得相当大,如SpaceX和Coinbase、Instacart和Uber等等,所以这很成功,我一直在不断地重复这样做,希望能取得更大的成功,但过去的表现绝对不能预测未来。我一路上遇到了Nat,Nat实际上比我记得的更早遇到了我--我猜你最初记得在2010年我只是一个YC的创始人时遇到我,是这样吗?
NF:是的,是这样的。实际上,我是在YC演示日见到你的。
我想他是说你已经老了,Nat,但继续。
NF:啊,罪过罪过! 是的,这是真的,我确实在YC的演示日上遇到了丹尼尔,就在他向一家当时叫Greplin的公司提出建议后,该公司变成了Cue,后来被苹果收购。在那批演示之前,保罗-格雷厄姆(@paulg)站起来说,这里有一家公司实际上在三天前改变了他们的产品,你甚至可能无法分辨是哪一家,我认为丹尼尔有这个惊人的推销能力,我认为这真的很有趣。事后去找保罗-格雷厄姆,他说,"哦,就是三天前改变的那个,这个想法"。
Nat,告诉我们你的背景。你是如何来到Y Combinator的这个演示日的?
NF:是的,当然,很高兴这样做。我的意思是,这很有趣,伙计们,我们在这里就像豌豆荚中的三个豌豆。类似的情况--我并没有真正认识很多有我这样成长过程的人。我对系统、数学和技术很感兴趣,我小时候会拆开所有的玩具,相当内向,没有很多朋友,不擅长运动或任何东西,但真的爱上了电脑。我超级幸运,我父母在我小的时候给我买了一台电脑。然后当我十几岁的时候,我有了一个调制解调器,这也让我想起了,当时我们全家去度假了一个星期。我们离开了家,我让我的调制解调器拨号,简直是拨遍了我家乡的每一个电话号码,试图看看还有什么其他的调制解调器是我们可以连接的。当我回到家时,它已经找到了这个调制解调器库,原来是当地大学的拨号接入,而且他们原来没有重置他们的小思科路由器的默认密码。所以我在90年代初在家里有了互联网接入,这真的改变了我的世界。像你一样,Ben,我的网页(nat.org)上说,我真正的家乡是互联网,这确实是我的感受。
回想起来,那时候的努力看起来很神奇,就像我在建立一个搜索外星智能体或其他东西。我简直是在拨打我家乡的每一个电话号码,以寻找其他与我相似的人,我可以和他们相处。我在互联网上找到了他们,也就是后来的开源社区和运动--当时还没有这个词--但已经有成百上千的人在写代码,大声思考,在公共场合写代码,分享它,互相帮助。我在网上发现了Linux项目和我能想象到的所有工具的所有源代码,我可以和世界上一些最好的程序员交谈并向他们学习。这对我来说太不可思议了。我第一次找到了一个我觉得属于自己的社区,真的,这就是我后半生的故事。从那时起,我生活中的几乎每一部分都与这个开源的想法有一些联系,建立在这些公共的知识公域上,在线社区,诸如此类的事情。
所以从那里我去了学校,最后我创办了两家不同的创业公司,其中一家是微软收购的一家叫Xamarin的移动平台公司。我们在2016年把它卖给了微软,就在萨蒂亚(Satya)[纳德拉(Nadella)]接管微软的一年后。我一直认为自己是个创业者,所以我想我将投入必要的一两年时间,但当我到达那里时,我发现萨蒂亚是一个了不起的领导者。你把一个有十万、二十万人的公司,你改变一个人,你会从整个公司得到完全不同的行为模式。所以我觉得我从他那里学到了一些关于领导力的东西,他有一个令人难以置信的团队。

大约一年后,我给萨提亚发了一封邮件,说:"嘿,我真的认为微软收购GitHub是有意义的。" 令我震惊的是,一周后,我和他以及微软的其他几位高管在一起开会,他基本上说,"我们做吧。让我们去做吧,"并授权我,尽管相对于微软的所有其他人来说,我只在那里呆了很短的时间,去领导这次收购。

我想说的是,在你的故事和丹尼尔的故事中,看到对行动的偏爱和不偏爱资历的共同点很有意思。

NF:确实如此。
显然,微软有起有落,自从萨蒂亚上任以来,它显然一直在上升,这可能与你作为一个大公司如何真正保持活力和生命力有关。

NF:是的,我认为萨提亚很有远见,他总是能达到更高的目标,我想这是其中的一部分。他看到一个大的想法,他想去追求它。我无法解释,但我感到很兴奋,他信任我去做这件事。当时,这是微软所做的最大的收购之一,当然是历史上最大的与开发者有关的收购,然后我随后被任命为首席执行官,管理GitHub大约三年,一直做到去年年底。

▩Transformer和大型语言模型

我们稍后会详细讨论这个话题,但是我忘了提到一个披露的事情,Daniel,你现在是一位出版作家。你和Tyler Cowen合著了一本名为《Talent》的书籍,非常优秀。也许我们可以间接地在这次谈话中涉及它。然后Nat,你联系我时正在运营AI资助计划aigrant.org,并询问我是否可以校对页面,并查看是否有需要添加的内容等等。最终激发了长时间的来往。
为此,我一直在写一个更广泛的上下文,即使只是六到九个月前,OpenAI也展示了令人难以置信的东西。我认为DALL-E 2是一个真正的分水岭。尽管我们已经有了GPT-3和所有这些东西,但AI的视觉组件更能吸引人们的注意力。一图胜千言,就人工智能的东西而言,这绝对是事实,但它们有所有这些控制、限制和邀请制度。它符合我的假设和传统智慧——即AI将成为集中化事物,并需要访问大量数据。
然后这个夏天发生了一些事情,首先是Midjourney的出现,从用户角度来看它只是一个Discord服务器,你可以免费生成这些惊人的图像——我们稍后可以讨论成本问题。然后炸弹爆炸了,那就是Stable Diffusion,在回到你们开源项目上的问题时,我们已经看到了可用性和迭代方面的巨大进展,即使在最近一段时间里也非常惊人,并且我感觉自己就像🤯表情符号中脑袋爆炸的那个(🤯),过去两个月每一个关于这个领域的假设都好像被推翻了。
我想访谈你们的原因是,我可能比任何人都更多地与你们两个讨论了这个领域以及这份资助提案。这也是你们谈论它的原因,但同时也激发了更多关于它的思考。苹果购物车被掀翻了,所有的苹果现在都滚在路上,想想新的购物车会是什么样子,这些苹果最终会怎么堆起来,这真的很有趣*?我的问题是:丹尼尔,在机器学习之前和之后,那条线就是transformers和大型语言模型(LLM)。我要请你来解释一下:什么是transformer?什么又是大型语言模型?为什么它很重要,并且为什么它代表着一个重大的转折点?用五岁孩子听得懂的方式向我解释吧。
DG:当然,是的,那确实是最大的挑战,不是吗?我们谈到了两件不同的事情。一种是图像和图像生成方面的爆炸式增长。您提到了许多不同的产品,例如 Stable Diffusion ,这是一个由不同公司产品化的模型;Midjourney 是一家正规公司。这些图片使用了特定技术,也许 Nat 可以解释一下,因为他对此有一个特别好的解释,并且还有一篇关于图像处理工作原理的特别详细的论文。
我在其他播客中已经描述过了。我喜欢图像,因为我认为这是一个对人们来说很容易理解的概念,你训练这个模型从随机噪声中提取出一张图片,然后这些能力让你从随机噪声中提取任何东西。当您在苹果公司运行它时,机器学习是如何工作的?与今天相比有什么区别?为什么会有如此大的差异?
DG: 我认为每个人都听说过这些神经网络,这些前馈神经网络可以通过它们输入信息,激活不同的神经元,并随着时间的推移形成一个通常能够很好地给出一堆标记(token)以预测下一个标记的东西。
根据任务不同,在不同领域表现良好。现在我们一直面临的问题是神经网络几乎没有上下文记忆。即使在苹果公司,我们也在训练这些称为LSTM(长短期记忆)单元的东西。这是我们赋予神经网络的最好方式--你可以像思考人类注意力一样思考它,只需要在大脑中记住一个完整的句子,也许是两个句子,就可以理解或完成第三个句子。可以说,这是理解的一个非常重要的因素。
现在,直到Transformer出现之前,LSTM在所有以前的架构中遇到的问题大多是:随着您添加到窗口的上下文大小而训练时间爆炸,并且没有人真正找到一种并行化这个训练过程的方法。LSTMs(至少当我在苹果公司工作时我们正在为您的键盘使用它们)花费了很多钱后,我们可以使它们预测一个句子,但除此之外就没什么了。
事实证明,无论你拥有什么样的模型,它的生产力在某种程度上都是它能记住多少上下文以及它能读和写多少内容的副产品。顺便说一句,这对人类来说也是如此。一个聪明的程序员可以在写下下一页的时候,在脑海中保留两三页的想法。
接着到了2017年,一群人,每个人都有自己的公司,新的PayPal Mafia现在是Transformer Mafia。他们写了一篇名为《Attention is All You Need》的论文,在当时被世界其他地方忽视了。他们想出了一种有效并行化训练的方法,并使我们能够创建更大的模型,并作为副产品能够重复存储更多上下文标记,并且能够有效地为你预测更多的单词。
这篇论文在发表时大多被忽视了——我认为它很棒,但不知道自己是否对其有所贡献。当时谷歌基于这篇论文开发了一个相当大的模型,由于各种原因没有发布。然后OpenAI真的用GPT-2和GPT-3产品化了那篇论文,通用转换器(Transformer),那个转换器来自Attention is All You Need的那篇论文。他们能够构建越来越大的模型是因为他们能够并行训练。现在这些模型(如GPT-3)被认为是最先进的,尽管我认为我们的孙辈会像我们看待显像管电视一样看待它。
这可能是一个极好的比喻。
DG:是的,就像他们看算盘一样。它可以写两三段落,但随着输出变得越来越长,你也会发现它开始偏离轨道了。这是当前系统所有缺陷的副产品,即无法保持思路长时间连贯。整个机器学习领域目前正在走向构建更大、更复杂模型的方向,并认为模型越智能,则可完成更多生产性任务。以具体案例说明,例如 GPT-4 或等效模型可以为您概括法律文件内容,这将节省大量生产力;还可以想象某种东西阅读税务表格等。
这个并行化的实现中有多少是硬件组成,而不仅仅是软件想法?我最近写了很多关于Nvidia的文章,其中提到GPU非常适合并行计算,并且他们构建了整个CUDA软件生态系统,使其更加易于普通研究人员和产品使用。这是否在此过程中起到了重要作用,还是两者同时发生只是巧合?
DG:在进步的故事中,有一个著名的观点,就是有多少人认为曼哈顿计划是科学发现的重大时刻,我们同时做了很多事情,我们成功地制造了原子弹。但对曼哈顿计划还有另一种看法,那就是我们组装了很多放在架子上的东西,准备好了-我认为类似的事情发生在这些大型语言模型上。从GPU的角度来看,这些功能都在那里。(意即这种试试是巧合,因为GPU的能力本来就存在那里了)
现在,确实V100,也就是GPT-3最初使用的GPU,比A100慢一点,A100是目前最先进的,但这些都是增量的,功能在那里,主要是软件创新。我认为,在机器学习的世界里,我们应该非常谦虚的一个最开放的问题是,每个人都在阅读这些文章并使用GPT-3,每个人都非常痴迷于Transformer是最终的和终结一切的架构。
确实,人们一直在添加一些小技巧和诀窍,但总体来说,人们使用的架构就是这个transformer。当你与transformer狂热者交谈时,他们会告诉你它将永远存在,也就是说,通过transformer我可以制作出足够大的东西成为一个通用人工智能——它可以完成所有任务,并且比人类做得更好。但我不知道因为以前人们也认为自己有答案。
没错,transformer突然出现了。你谈到模型在每个GPT版本中都越来越大,参数数量也越来越多,并且你有这些庞大的Nvidia GPU舰队或者Google正在构建自己的芯片或者其他可能经过这种大规模处理的东西,但这归根结底是因为传统智慧认为生成这些模型将会是一个巨大的问题。什么改变了以使得它更广泛地可用?另外一个重要转变似乎是您可以使用更少量、更脏乱不堪的输入数据就能够产生非常相似的结果,只需从互联网上收集信息而不需要输入超级高度结构化数据。那是否与transformer革命有关还是同时发生并使所有事情顺利进行呢?
DG:在transformer变得很大之前,确实存在一小部分人们所谓的无监督学习场景,这意味着学习不需要大量标记数据集。没有人完全弄清楚,有这样一个想法,如果你只是向模型投入足够多的信息,就像现实向我们投掷了大量信息并且我们通过无监督模型进行学习一样,那么模型将会自己解决问题。
人们并不缺乏数据,我的意思是,我们有互联网。顺便说一句,这是一件大事。我认为,实际上,Nat指出了这一点,我认为真实的的发现是我们拥有互联网这一事实,它可能会载入史册,因为我们制造人工智能的唯一方法是我们数字化了世界。
这是件大事,每个人都认为游戏是VR的未来,我想,“好吧,你必须生成所有这些内容,所以它需要人工智能生成,你需要输入。这很奇怪,因为游戏几乎就像手工制作的HTML页面,而且几乎没有足够的页面。
然而当涉及到互联网时,因为我们有诸如论坛之类的东西可以发布任何人的文章,在那里有如此多的文本和图片 - 就算它们没有手工制作的HTML页面或3D游戏世界那么好结构化 - 这实际上是为什么这些大型语言模型中与文本相关的任何东西实际上都是如此,如此,因为输入的不是质量,而是数量,而互联网刚刚释放了巨大量级的数量。
DG:是的,我认为稳定扩散(Stable Diffusion)更有趣的一点是,我们现在看到计算机可以根据给定的文本生成艺术作品。如果1992年或1993年蒂姆·伯纳斯-李(Tim Berners-Lee)没有将图像HTML下的alt标签放置好,这种情况可能不会出现。
因此,每张图片都有与之相关联的文本。
DG:没错。所以这个偶然事件,我想,Nat,你告诉我那是一个意外或事后的想法。
NF: 我当时正在做的事情,但我同意这个想法,即互联网是AI的引导程序的数字化引擎。因为我们需要的两个输入是数据和硬件,我们从互联网获取了数据,并从游戏中获得了硬件(怎么理解?)而Transformer实际上只是一种计算优化方法,用于将这些东西组合在一起。使用以前的架构似乎也可以构建这些大型模型,但它们的计算效率要低两到三个数量级。正如Ben所说,在Nvidia芯片上使用并行功能意味着您实际上可以实现此注意机制并使transformer工作。

Github Copilot

GitHub Copilot 是一个非常广泛使用的产品,你是世界上为数不多的成功发布了基于该产品的人之一。你提到过程序员脑中能够记住三页内容,并且这其中涉及到一定的智能功能,即所谓的“页面功能”,也就是你能记住并在纸上书写下多少页内容。但将脑中的整个逻辑转化为文本的过程实际上有些繁琐。你需要调用正确的API,填写大量的样板代码,而这正是 GitHub Copilot 能够帮你自动化的地方。它将这些繁琐的工作进行了抽象化,因此你不再需要记住所有的语法和具体细节,只需填写这一整个已知部分。关于这个过程,你是如何看待它的?是觉得这是一个显而易见的应用,还是经历了一段曲折的道路?GitHub Copilot 是如何诞生的呢?
NF: 我觉得这非常有趣,因为回顾起来,它是那种看起来非常明显的产品,但是在事先却非常模糊,不太清楚其中的内涵。所以故事发生在2020年6月11日,GPT-3发布了,我看到了它,我想:“天啊!这太令人难以置信了。”我很早就得到了一些演示和试用的机会,它让我震惊不已。于是我说:“我们应该利用这个,只是不知道具体做什么。”
Satya(微软公司的首席执行官),非常睿智地与OpenAI建立了合作伙伴关系,所以我们已经与他们建立了合作关系,可以进行合作。
我找到了几个非常聪明的开发者在GitHub上,我们面临的挑战是在不确定性中进行开发。我们知道这些模型很好,但我们并不确定它们到底能用在哪些方面。OpenAI定期为我们提供改进后的模型,它们在不断提升,但我们不知道这个提升的速度何时会停止。
我们对使用这些预测文本的模型来找出一些用途有了几个想法。因此,我们采取了两种方法来调查这些想法。我们最初的想法实际上不是一个编写代码、自动生成代码的自动补全机器人,而是一个问答机器人。它实际上是一个聊天机器人,我们认为它可以帮助回答问题。

在你的IDE中的Stack Overflow

NF: 是的,完全正确。就像 Stack Overflow 机器人,那是我们开始调查的一个领域。另一个领域是代码合成,但我们不知道它的用户界面应该是什么样子,以及它如何工作。所以为了调查这两个领域,我们实际上建立了这些测试。
在聊天机器人方面,我们让GitHub的一组工程师写了成百上千个关于Python编程的问题。然后我们将所有这些问题输入到机器人中,并提取出它给出的答案,然后对这些答案进行评分,以查看它们的质量如何,以及随着OpenAI不断提供更好的模型,质量是否有所提升。我们看到这一过程是逐周发展的。
另外一件事是,我们想知道它在编写代码方面到底有多好。因此,我们在 GitHub 上进行搜索,并找到了所有具有单元测试的代码。这就是我们进行搜索的函数,我们搜索那些具有有效的、能够通过单元测试的代码。然后我们将函数体内容清空,并设置一个测试框架,让 GPT-3 或 GPT-3 的衍生版本填充进去,然后重新运行单元测试,以查看是否能再次通过。这就是另一个测试框架的情况。
你可以看到与图像生成的类比,你知道你想要的内容,并从随机性中提取出来。在这种情况下,你从随机性中提取代码,并知道最终如何计算。
NF: 对的。现在,有趣的是,在大多数情况下,无论是在问题还是在代码方面,它们通常是错误的。实际上,在代码合成方面,我记不清确切的数字,但可能有20%的测试一开始通过,然后随着时间的推移,我们的通过率提高到了30%、35%左右。
DG: 它的错误是有道理的吗?它是否接近但是错了?
NF: 并不总是如此。我对这些模型经常说的一点是它们时而神奇,时而古怪。有时候,它们非常出色,令人觉得神秘,像是“它是如何弄明白的?太不可思议了。它能读懂我的心思”,或者“它比我更懂这段代码。”
然而,有时候它们又古怪得离谱,错误得荒唐可笑。所以当它们出错时,错误是非常明显的。在进行问答测试时,我们发现当你实际上向它提问,而它多半给出错误的答案时,你会非常烦恼,这样的交互体验非常糟糕。
因此,我们知道它不能是某种显式的问答交互方式。它不能是你提问然后70%的时间都得到无用的答案。它必须是一种在有高置信度时向你提供建议的产品,而不是你提出问题然后失望的产物。
所以基本上,你是在说微软之前的Clippy这个想法是正确的?
NF: 嗯,部分是的。我认为,是的,Clippy并不是直接的灵感来源,但与Clippy不同的是,它必须是不显眼的。事后我们才知道,我们当时试图回答的问题是:“如何使一个经常错误的模型仍然有用”?
因此,你需要开发一个用户界面,让用户自己对何时关注建议和何时不关注建议有所感知和直觉,并能够自动地注意到:“哦,这可能是个好建议。我正在编写样板代码。”或者“我对这个API不太了解。它可能比我更懂。”并在其余时间忽略它。
NF: 有趣的是,之前我们对人工智能的许多想法都是关于对话的概念。人工智能就像是桌子另一边的代理,你在考虑你想要完成的任务,将其转化为问题,进行提问,然后得到回答,你与它进行对话。
而Copilot的想法则相反。它像是坐在你肩膀上的小机器人,你们在同一侧桌子上,看着同样的东西,当它能够时,它会自动尝试帮助你。这证明是正确的用户界面。即使在我们找到这个界面之后,实际上还经历了数月的探索,以找到如何使其对用户有用。
现在的用户界面看起来非常明显,有这个灰色的文本出现,有时是一行,有时是一个块,但我们花了数月的时间进行调整和改进,才得以实现这一点。
从我们意识到我们应该做点什么的6月份开始,我认为到了夏末、可能是9月初,我们才得出结论说聊天机器人不是我们要找的方向。然后,直到第二年的2月份,我们才有了那个令人震惊的时刻,意识到这是一个产品,这正是它应该如何工作的方式。我们也意识到延迟非常重要。模型不能太大,因为如果模型太大,即使它更准确,速度也太慢,你会因等待而感到恼火,它会写出越来越少的代码。现在,这一切显得非常明显。它看起来是最显而易见的产品和构建方式,但当时,许多聪明人还在黑暗中寻找答案。
一个观察也是一个问题,我在我的播客中这样做,所以我可以这样做,我们不是在会议上——观察是令人印象深刻的是,回到“奇异与怪异”。原因在于,人们希望将一切事物拟人化,并将一切事物放在人类的术语中。计算机的整个意义在于,它的运行方式与人类完全不同。归根结底,它仍然是在计算一和零。因此,一切都必须归结为这一点,它以非常快的速度、难以想象的速度执行计算,但这与人类思维方式完全不同,所以无论什么样的怪异或奇异,我相信对计算机来说完全合乎逻辑。我觉得这就是为什么聊天界面是错误的原因,因为它正在将这种智能带入,并通过尝试将其作为人类来强调其与人类的不同之处,而事实上,必须提出一个完全不同的界面,承认并庆祝这种智能实际上与人类的运作方式完全不同。
NF: 我觉得这说得非常对,但我认为在考虑构建人工智能产品时,你必须要问的一个关键问题是,人们可以提出一些在模型比今天更智能时会起作用的好主意,但你必须要设计一个让人们实际上喜欢使用的产品,即使在模型当前的智能水平下也是如此。Copilot给我们带来的东西,在回顾中我们才意识到,它是基于随机心理奖励的。就像老虎机一样,在任何给定时刻使用它的持续成本并不高,但偶尔会有一个大奖,它会为你生成一个完整的函数,你会感到非常高兴。你简直无法相信,它刚刚为你节省了25分钟的搜索、Stack Overflow和测试时间。这种奖励是以随机间隔发生的,所以你会准备好迎接下一个随机奖励,它具有一种令人上瘾的品质。而人们常常有一些想法,比如:“哦,这个代理程序将为你编写一个巨大的拉取请求,它将在你的代码中进行大量的更改,然后你需要对其进行审查。”
DG: 在你的观点中,这就像一辆无马马车。
NF: 嗯,我的观点是,一旦模型的智能水平达到你们最优秀的程序员之一,那将会很棒,但如果没有达到,那么你们提供给客户的用户体验就是由一位可能有些智力缺陷的初级程序员编写的代码,而对于任何程序员来说,这是最不喜欢花时间做的事情。
DG: 一个有时很聪明,有时实际上会写出日语而不是Python的精神分裂软件工程师。
NF: 这就是一种艺术,要思考“你将如何处理幻觉?如何处理错误?在你的产品中是否合理?速度需要多快?” 这也是我认为图像做得很好的原因之一,因为图像是虚构的。代码是非虚构的,可以进行测试,测试必须通过,不能有语法错误。图像,如果有多余的杂散像素,那是艺术的一部分,从某种意义上说没有错误。
这其中存在着一种有趣的权衡,不是吗?因为更结构化的东西,比如代码或法律——法律是另一个潜在的AI应用的例子——从某种意义上来说,似乎很明显计算机可以做到这一点,因为编程本质上是创造性的。记住所有的语法和API的工作原理根本不需要创造力,只是机械劳动。所以有趣的地方在于,越是创造性的东西,越容易出错,这对于AI来说是有利的。另一方面,AI可能最有用和最有影响力的地方是在它只是重复某些东西的地方,但精确性成为一个问题。这之间存在一种紧张关系。
NF: 嗯,我认为这很有趣。如果没有Copilot,你现在可能会说这些东西擅长创造力和想象力。你有文案编写、重写,有图像、游戏等等,所有这些想法,但它们在写精确的、语法正确的代码方面并不擅长,但因为我们有了Copilot,我认为答案应该是,“它们也能做到,但在这些情况下,你必须找到使其发挥作用的产品形态”,这将涉及一定程度的人类监督和学习以实现你希望它做的事情。
那么这是否存在直接的联系呢?我是说,这个研究项目中引人入胜的一点是,你的副标题是“产品而非论文。尝试而非训练。应用而非……我实际上不知道该怎么说。
NF: Arxiv,我就叫它Arxiv。
Arxiv,谢谢,A-R-X-I-V,这是一个很棒的标语,实际上,“噢,等一下。这些年来一直有关于机器学习和这些东西的大爆炸和讨论,但是怎样才能让它对人们真正有用呢?”这是一个很大的问题。你提到的Copilot大部分讨论的是OpenAI所做的所有实际的AI工作——从GitHub的角度来看,这不仅仅是一个AI产品,而是一个真正的产品。你的感觉是这里有机会。为什么会有这个机会呢?
NF:很有趣,我有过这样的经历,与一个优秀的团队一起,将OpenAI的研究成果转化为产品,并取得了巨大的成功。人们非常喜欢使用Copilot。根据最近的一项研究统计数据,今天,程序员使用Copilot完成一项特定的任务(比如从头开始编写一个Web服务器)要比不使用Copilot快50%以上。而且从我们的遥测数据中得知,在某些编程语言中,当使用Copilot时,它能够自动生成人们正在编写的新代码的高达40%。因此,它取得了巨大的成功,数百万人使用并喜爱它,这是一件大事。
当我离开GitHub时,我曾经想过,“AI革命来了,接下来会有更多的人开始研究这些模型并开发产品”,但事实上并没有出现这样的情况,这让我感到非常惊讶。现在我们面临的情况是,研究人员已经领先一步,并以日益加速的方式向世界提供了大量新的能力,他们每天都在不断前进。因此,我们现在面临的问题是,这些新能力已经超出了我们的需求,而令人惊讶的是,创业者和产品人员只是刚刚开始理解这些新的能力,并开始思考一个问题:“现在你能够构建哪些之前无法构建、人们真正想使用的产品?”我认为我们实际上面临着一种短缺。
有趣的是,我认为造成这种情况的原因之一是因为人们在效仿OpenAI,而OpenAI处于创业公司和研究实验室之间。因此,出现了一代代模仿研究实验室风格的人工智能初创公司,其中声誉和威望的货币是发表论文和引用,而不是顾客和产品。我们只是试图讲述这个故事,并鼓励其他对此感兴趣的人来构建这些人工智能产品,因为我们认为这实际上会以一种有益的方式反馈给研究界。我们不断听到有关人工智能将如何随着时间推移解决推理问题的叙述。我认为一个非常好的测试是像Copilot这样的产品,如果人工智能真的能做到这一点,它将在某种程度上开始编写接近100%的代码。
Copilot的优势之一是它有一个编译器,对定义的错误进行检查,并确定代码是否能够运行。这引发了一个问题,是否会出现针对各个领域的编译器市场。对于确保AI系统生成的内容逻辑和有效性的问题,可能需要专门的编译器,比如法律编译器,用于验证生成内容的连贯性和正确性。
NF: Copilot非常有趣的一点是,它有时会出错,但实际上,产品和模型本身并没有显式的语法检查功能。模型会生成一些选项,然后插入到你的代码中。如果其中有语法错误,它是不会被捕捉到的。所以我认为,这实际上展示了大型语言模型的强大之处,它们能够经常性地生成符合语法的代码,以至于可以在这样的产品中直接使用,而无需进行过滤。
DG:Copilot在单元测试或其他方面是否进行了微调?
NF:是的,它在我之前提到的单元测试工具上进行了微调,而且还根据使用者的反馈进行了微调。当人们使用Copilot时,它会提供一些代码建议,然后他们会接受这些代码,但可能会进行一些编辑。这些编辑会被用来让模型变得更智能。
使用时希望用户保持愉快心情的一方面是因为这样他们更有可能给出反馈意见。
NF: 有时确实会让人心情不好。我的一个朋友前几天告诉我说:“我喜欢Copilot,但它总是在侮辱我。”我问他是什么意思,他说:“嗯,我在写注释时,我键入了'这是...',它会建议我写'一个hack',然后我看了看我的代码,我就会想,'天哪,你说得对,这确实是个hack。'”
DG: 是的,挺有趣的。我记得当我们在iPhone上做搜索预测时,你下拉搜索时它会预测你想点击的内容。Greg Christie,非常有名的iPhone设计师,当时在会议上。那是他在苹果的最后几天,所以他感觉很狂放自由,他在那里呆了20年,设计了iPhone等等,他说:“不管你在那里预测什么,人们都会点击。不管什么都可以,不要想得太复杂。”
我们说:“你是什么意思?”他说:“你就看着吧。随便放点随机的应用。”这种说法有点道理。当你做出那些预测时,人们会接受你给出的内容。我想,Nat,我要问你的是,你在考虑Copilot时,你是如何考虑网络效应的?从用户那里获得反馈是否重要,或者在这个世界中,这可能并不重要,因为模型的智能增长速度比你从用户那里收集数据的速度更快?

▩中心化与去中心化

NF:嗯,我们正好触及到Ben的中心化与分权化主题。我的意思是,中心化背后的一个理论是,那些拥有所有分发渠道(distribution)的公司将获得所有的数据、遥测(telemetry)和使用反馈,因此它们的模型将进入一种无人能及的良性循环改进。至少在Copilot的案例中,反馈确实改善了它,但改善的程度大约只有8%、10%,并不是因此而提升了50%。
中心化和去中心化的问题非常有趣,因为我也相信了这种观点,即人工智能将成为一种罕见的情况,这种技术突破不会在整个行业中传播,并且会被少数组织所垄断。我们有几个原因来支持这种观点。其中一个原因是认为专业知识可能非常稀缺,可能存在一些技术秘密不会泄露出去。但实际上,我们发现每一个重大突破都非常简单,可以用一张索引卡背面或者十行代码来概括。机器学习社区之间的联系非常紧密,所以这些秘密似乎无法保持太久,至少对于大多数组织来说,这个观点是站不住脚的。
还有另一个重要的问题是数据问题,对吗?
NF:是的,然后数据是下一个。
是的,我的意思是,因为回想起当初的情况,人们认为“苹果将会被搞砸,因为他们收集的数据不够多,尽管从市场营销的角度来看,隐私保护现在运作良好,但从长远来看,这将阻碍它们的发展”。我认为关键点在于:1)数据实际上不需要非常高度结构化;2)如果是这样的话,互联网就在那里,每个人都可以访问互联网。这似乎是一个至关重要的转折点。
NF: 是的,我认为这是正确的。我认为互联网和几乎任何人都能以相对较低的成本从互联网上获取所需数据并进行训练的能力是一种重要的民主化力量。不过,话虽如此,研究界有一个规范,即如果你有算法突破,你会发布你的研究成果,但如果你付出大量工作来制作数据集,你不必公开发布该数据集。因此,我相信所有伟大的实验室实际上都在投入大量精力清洗他们的数据。
是的,干净的数据比脏的数据更好。
NF:是的。你下载了一亿小时的YouTube视频,然后清洗数据,使用工具进行聚类,丢弃无效的聚类等等。我认为在任何行业中,寻找机会的一种方法就是看看哪些方面地位较低。(low status)
仲裁,对于听众来说。
NF:是的,数据确实是低地位的。抓取数据和清洗数据并不是一个高地位的活动,它不能为你带来引用。我相信在数据方面可能存在一种优势,这种优势正在被发现。另一个方面是硬件。你问了一个问题,"天哪,你能否承担比其他人更多的硬件费用?"至少目前来看,这个问题并不构成障碍,但当GPT-4诞生时,当我们看到大规模模型时,也许会出现一些逃逸速度,只有少数组织能够达到,其他人将跟不上。这种可能性是存在的,但至少目前还没有发生。
不,情况正好相反。还存在着训练和推理之间的权衡关系,对吧?简单来说,训练是实际创建模型的过程,推理是将模型应用于生成结果的过程。以图像为例,训练实际上是从随机噪声中提取出已知图像的过程,开发启发式规则,然后将其应用于新图像,这就是推理。
你是否认为在这里存在着一种权衡,即训练的次数越多,后端的优化就越多?例如,Google在搜索中使用机器学习,但当你输入搜索结果时,并不是在Nvidia GPU上运行。他们实际上无法负担得起那样的成本,但它经过了如此优化,以至于在使用中几乎是确定性的,所以他们可以进行规模化扩展。
而Midjourney,在训练方面的投入几乎肯定较少,但当你实际开发一个图像时,你会在云中的Nvidia GPU上运行,这会产生一定的费用。我是否正确地认为在训练、推理、可扩展性以及其所能达到的程度之间存在一种权衡关系?
NF: 我认为目前是这样的。如果考虑到规模扩展定律,它基本上说要想创建更好的模型,就应该使它们变得更大,而对于正在创建的更大的模型,推理成本就会更高,而且甚至可能没有足够的GPU可以容纳它们。所以在一个未经优化的情况下,或者如果你的模型非常通用,这是成立的。但如果你能够明确定义你的模型将要应用的场景集,人们发现你可以对它们进行真正的优化。你可以提取精华,进行量化,使它们变得越来越小。
我最近听说了一件让我震惊的事情,就是Google为搜索训练的语言模型,他们现在花在训练上的费用比推理上的费用还要多。现在,对于Midjourney这种情况,情况正好相反。云中的GPU数量不足以供1000万人同时使用Midjourney,从推理的角度来看,这要求太高了。令人惊讶的是,那些图像模型、扩散模型在训练上花费相当低廉,而且体积相对较小。
DG: 只是底层有很多。
NF: 是的,自从Stable Diffusion发布以来,令人惊讶的是开源社区如何全力以赴对其进行优化。
它被疯狂地优化了。

Stable Diffusion

那么,Stable Diffusion的故事是什么呢?它从哪里来的?
NF: 所以有一个名为EleutherAI的在线开源社区,他们对扩散模型这个概念产生了兴趣,这个概念是由这个名叫Joshua的人在Google发表的,他们开始尝试一些工具。一年半前,有一种叫做Disco Diffusion和Latent Diffusion(潜在扩散)的工具。所以如果你碰巧在这个开源的EleutherAI Discord服务器上,一年半前你就能看到未来。你会看到一些新的东西涌现并被使用。当时有几个人非常热衷于用AI创作艺术。当时没人知道它会成为一个大事件,也许有人知道,但对我来说显然不是很明显。
然后发生的是,慕尼黑的CompVis实验室(计算机视觉实验室)之前训练了一个开源的扩散模型,即潜在扩散模型(Latent Diffusion),并决定再训练一个模型。还有一个叫Emad Mostaque的人,他是伦敦的一位了不起的人物,曾经在伦敦经营过一家成功的对冲基金,并决定将他的注意力、精力和财富转向加速和民主化人工智能领域。于是他加入了Eleuther社区,找到了来自慕尼黑CompVis实验室的人以及这些扩散模型和人工智能艺术的开源先驱,并说:“我用自己的钱买了一台巨大的集群。我在AWS上购买了4000个A100 GPU。”
对,他们当时被用于加密货币挖矿,对这些GPU的来源没有人清楚,他不知何故获得了一台装满了大量Nvidia GPU的巨型服务器。
NF:是的,我不清楚具体细节。我知道他个人为亚马逊的费用提供了担保,说:“我想为你们训练史上最伟大的图像模型。”当然,他们明智地答应了:“谢谢,我们会这样做。”大概一年后,他们成功地训练出了这个稳定扩散模型。
我想实际上,Emad公开谈到的训练这个模型的总成本在数百万美元左右,这包括在训练这些模型时会出现的错误和失败的训练过程。所以实际成本相对较低,并且我认为这表明,因为他有如此大规模的集群,我们对于这些模型的潜力还只是刚刚开始。
我猜这是未来的问题。Stable Diffusion引发的热情是疯狂的,吸引了所有那些孤僻的年轻Nat Friedmans,他们带着电脑被现实世界的朋友排斥,但对这个AI模型超级着迷,所以他们为这个项目做出贡献。每周都有各种优化出现,使其适应不同的GPU或其他设备,但你仍然需要模型,必须有人实际制作模型。现在有人期望着有人会构建那个模型,而其他人将继续构建新的模型吗?因为这里涉及到经济因素,不仅仅是努力的问题,如果有人必须扮演Emad的角色,这是一个关键因素。
NF: 是的,问题是民主化AI或开源AI的未来是否取决于像Emad这样的少数疯狂之人的努力和愿景,他们愿意花钱来实现这一目标,或者是否存在一种可持续和可扩展的机制,可以广泛应用于这个领域。
也有可能我们不需要太多的开源基础模型。通过拥有一个出色的图像模型、一个出色的音频模型,可能还有一个视频模型,在某种程度上当然还有一个语言模型,虽然我们目前还没有真正的最先进的语言模型,但可能已经足够引发一个生态系统的发展。然后你可以想象事情会像Linux那样演变。

Linux似乎是与Stable Diffusion最为明显的类比。

NF: 在Linux的情况下,我们有Linux基金会,突然间,所有这些公司的商业产品和他们自己的努力都绝对依赖于Linux的成功,并且它保持在最前沿的状态,他们愿意为这个项目提供资金和全职工程师。所以我认为现在在大型实验室发布他们最昂贵的模型之前,或许在开源领域还无法复制的窗口期内,可能会形成这样一个至关重要的质量,一个行业联盟或俱乐部或类似的组织可以获得足够的动力,从而在长期内具备可持续性。我认为我们很可能会看到这种情况。我目前至少知道有三个不同的努力正在进行,他们正在训练一个开源的、与Chinchilla相当规模的、最先进的语言模型。现在,我们已经有多家公司公开谈论这个问题。
DG: 当你说“Chinchilla”,那是什么意思?我认为这是一个重要的观察。"Chinchilla"是什么意思?
NF: 在这个背景下,我指的是一个最先进的语言模型,但这是一个很好的问题。所以GPT-3是一个非常大的模型,拥有1760亿个参数(笔者注:原文如此,一说1750亿),OpenAI在很长一段时间内使用大量的数据进行训练,它绝对令人惊叹。随后,其他实验室决定尝试复制它,同时也对其工作原理和可能性的限制进行了深入分析。
DeepMind特别近期发布了一篇关于他们构建的名为“Chinchilla”的模型的论文。他们的研究问题是,在给定一定数量的数据和计算资源的情况下,一个合适的模型大小是多少?在构建了一系列不同大小、不同数据和计算资源的模型之后,他们发现相比于投入的计算资源和数据量,GPT-3实际上过于庞大了。丹尼尔,你用了一个超大的手提箱来比喻,它是半空的。
DG: 顺便说一下,这就是美国西部的故事,广袤无垠的土地,但人口稀少,无法充分利用。
NF: 我有时把它们比作海绵,这些更大的模型可以吸水。
DG: 是的,它们可以吸收水分。
NF: 它们并没有完全吸满,但他们能够训练出一个和 GPT-3 相当聪明的 GPT-3 级别模型,体积只有 GPT-3 的三分之一到一半。我认为这表明我们在这个过程中还处于早期阶段,我们仍然能够找到两倍和三倍的优化空间,我认为我们会继续发现这一点。
DG: 这很重要,因为我认为如果用费曼(fineman)的话来说,底层还有更多的空间,那么中心化的程度就会越来越低,而且似乎这个空间可能非常大。
NF: 我认为这是正确的。另一个方面是,我们看到功能齐全的开源社区围绕这种新能力涌动的活力,这是令人兴奋的。我们在文本和语言模型方面还没有见到这种情况。我认为其中一个原因显然是图片更有趣和激动人心,更容易展示,但我认为另一个原因是我们还没有一款真正领先的开源语言模型,我认为这将在接下来的六个月内出现。

人工智能是持续性的还是颠覆性的?

我认为在你寻找人们去构建的东西中,除了 GitHub Copilot,真正的产品案例是什么?文本有什么用户体验?图片很明显,有整个库存图片艺术产业。令人惊讶的是,我几周前在一篇文章中使用了 Midjourney,我生成了三张图片,我支付了600美元的商业许可费。我每张 Getty 图片支付500美元,我们每个月为 Dithering 的封面购买一张 Getty 图片,我花的钱比这还多,而且我们故意让它看起来糟糕。所以对于图片来说,存在着明显的即插即用应用。
更广泛地说,这是一个商业模式的问题。有一种持续创新和颠覆性创新的观点,持续创新是现有公司可以采用它来改善他们现有的商业模式,使其更有效。颠覆性意味着它完全不同,是一种新的范式,现有公司无法对其做出反应,它们就完蛋了。**我认为库存图片公司正在被颠覆。他们的整个业务模式是由真正的摄影师或真正的插画师制作真实的图片,但他们无法提供一张插画少年手臂被切掉的图片,而这正是我在文章中发布的内容。所以他们陷入了困境。
随着时间的推移,你认为这种平衡在哪里发挥作用?可以说,微软一直是世界上最大的开发公司。GitHub 拥有 Copilot,微软拥有这个产品,这感觉像是持续创新。它使微软的开发产品更具吸引力。答案会是因情况而异吗?
NF: 我认为确实是因情况而异。基本上会出现两种情况。我的意思是,你在这里有几个因素。首先,现有产品将会有令人惊叹的 AI 附加功能,可以使这些产品变得更好,并且可以作为功能添加进去。它们并不会改变工作流程太多,但已经增加了很多价值。我认为 Copilot 就是其中之一,但同时也会出现一些新的东西,它们不适用于现有的产品类别,可能涉及全新的UI或工作流程,可能处于一家大公司的几个不同副总裁的交叉点上,因此不清楚谁负责构建这个新产品,这就为创业公司提供了很大的空间。答案可能与界面(interface)革命有很大关系,其中界面是基于语言的(language-based),而现有界面完全无关或需要重新发明。
@tszzl 写了一篇关于“文本是通用界面”的文章。现在几乎可以说是回到了命令行时代,现在有一种真正的技能,那就是输入出色的提示(prompt)来获取所需的图片。
DG: 是的,但我的意思是,这只是因为我们还处在早期阶段,我不认为应该过多从 Copilot 中学习。我认为 Nat 太谦虚了,但事实是大多数大公司,尤其是大型企业公司,在用户体验(UX)和用户界面(UI)方面没有创新。我觉得为什么他们不能做到这一点是一个有趣的问题,但为什么 Figma 可以?为什么 Stripe 可以?这是因为大公司由于某种原因,无法构建出出色的界面。
我们正处于一个新时代,新的用户界面成为可能,它介于图形用户界面和语音或文本用户界面之间。我认为它不会是文本,因为在图像领域中,所有错误实际上都是特征。但你所遇到的问题在真实领域中(比如你提到的法律、税收等生产性工作),错误是不可取的。文本存在一个我们一直从苹果那里里观察到的问题:与 GUI 不同,客户无法理解系统边界。
所以除非像 Nat 所说的那样,如果你有了超过人类智能的通用人工智能(AGI),那就太好了。在那之前,你需要具备 GUI 具有惊人功能的东西。GUI 只显示你可以按下的按钮,并且通常没有无效按钮。
您尚未在MacOS上使用新的设置应用程序...
DG: (笑)是的,我的意思是,一个好的 GUI 不应该在设置里出现 Apple Arcade 的广告,但这是一个稍微不同的问题和故事。我认为没有人,特别是大公司肯定不会,而创业公司现在才开始思考这实际上意味着什么,也许界面应该看起来更像树。我认为如果 [Douglas] Engelbart 或 Alan Kay 现在还在的话,我敢肯定他们会有很多有趣的想法。当你在旧金山的街上偶然遇到 Alan Kay 或其他地方,他会大声对任何愿意倾听的人说图形用户界面在70年里没有改变过,它们只是离开了场景,没有达到全局极值,他们只是有一天离开了办公室就退休了。所以在那里有很多低 hanging fruit,我相信我们现在会看到创业公司开始进行实验。
这非常有趣,因为我认为这就是 GitHub Copilot 的例子有意义的地方。也许在维持和颠覆之间确实存在 UI 功能,当确实有理由进入现有界面时,公司将非常适合这样做。如果需要完全创建一个新的界面,那么谁拥有它呢?对于这个全新的界面,没有一个明确负责的人。

▩AI机会

令人瞩目的是,尤其是对于设计师而言,看待这个世界特别是图像领域时很容易感到忐忑不安。我们都是技术乐观主义者,显然可以从我们的背景中听出来。就像“哦,但会有新机会。将会有新工作”,但你真正表达的实际上是现在最大的机遇在于设计。它在于纯粹创造与计算机交互的全新方式,并将其作为解锁悬而未决能力(没有人知道如何将其放在人们面前)的关键。
DG:这是一个很好的观点。这真的是一个很好的观点。
NF:这是我一生中见过的创业者最伟大的时刻之一,因为新应用程序的开发已经打开了一个全新的领域,你可以构建这些AI原生应用程序。当然也会有附加的 AI 应用程序,它们也很棒,人们也应该构建它们。但是这些原生于 AI 的应用程序,我认为将这些模型和能力转化为人们真正喜爱使用的全新方式需要极大的创造力、努力和大量的迭代。我们通过Copilot做了一个初步版本,但这种情况将在整个行业范围内发生。我认为这是一个全新的世界等待着我们去探索。虽然我们没有地图,不知道所有财富都埋在哪里,但肯定存在着财富。
例如,在图像世界中,这种文本到图像的想法是扩散模型的基本概念。如果你曾经看过一个非常有创意的人坐在Midjourney旁边使用它一个小时,你会发现他们所做的不仅仅是一种文本到图像转换。他们正在编写提示,生成一堆图片,并产生这些图片的变化和混合思路。他们可能会从Discord频道中借鉴别人的想法进行探索空间,以及针对性地寻找自己喜欢并用于创造力和想法上面元素,并将其固定下来形成输出或产品等不同模式。因此,只要考虑到这一点,您就可以开始想象原生用户界面可能会是什么样子了。它看起来不像是一个你输入文本然后出现一张图片的盒子,它看起来比那要流畅得多。
真正引人共鸣的是这种兴奋感,对吧?我的意思是,科技一度感觉被锁死了,我写了《终结之始》,我们有移动操作系统、云计算等等,但问题是,“这就是全部了吗?接下来会发生什么?” 这就是为什么今年夏天如此振奋人心和激动人心。这也是我想与你们交谈的原因,有人持怀疑态度,人工智能已经在拐角处这么久了。
DG:非常正确,是的。
令人兴奋的是,现在这个项目已经开始变得非常具体化了,对此所带来的影响也不再只是研究性质。正如你所说,我认为没有产品问世的原因之一就是人们感到害怕。他们会觉得:“我不够聪明去理解这些神经网络,我不擅长数学,我只是一个艺术家或者产品人员。”但实际上并非如此,这些技能比以往任何时候都更有价值。顺便提一下aigrant.org吧,因为它真的启发了我们,“嘿!这里面有真正的机会!” 这也正是你想要投资其中的原因,并且也是我想与Stratechery读者分享你的愿景和兴奋之情的原因。这不仅仅是虚晃一枪而已,在那里存在着真实、酷炫、具有商业意义。
DG:是的,我同意。特别是,我想我代表我们俩说,当前世界处于非常不稳定的状态。黑暗似乎从很多不同的角落涌来。过去两三年中技术人员谈论的上一个浪潮,在美学上至少对我来说,并没有解决我们日常生活中非常紧迫的问题,而许多元宇宙的东西,虽然有趣,但也感觉非常遥远。
有点反乌托邦。好吧,直接说吧,你显然是在谈论加密货币。有趣的是,我认为彼得·蒂尔曾经提到过关于人工智能集中化和加密货币去中心化的说法。今年我写了一篇关于OpenSea的文章,说“不,实际上,加密货币将会非常集中”,因为如果你拥有这种低摩擦环境,价值就会累积到发现上面,这就是整个聚合器事情,在这方面完全被放大了。一个鞋子落地了,另一个鞋子则是AI其实正好相反, 因为它建立在互联网之上, 本质上具有民主性。
人们谈论互联网时会说,“哦,它太过于集中了”,这是有道理的,因为我也写过相关文章。但从价值捕获的角度来看,它确实是集中化的,因为你可以通过领先于发现并处在中间位置来使用广告模型获益。但 Google 和 Facebook 并不是垄断企业。这让人们感到愤怒,因为竞争只需要一次点击就能离开当前平台,这是真实存在的!互联网的这个方面和现实意味着,如果人工智能建立在互联网上,互联网是人工智能的引导程序(boot loader),开放性是一种它应该继承的品质,看起来就是这样,这是非常令人兴奋的。
DG:是的,我认为会的。来自世界各地的人们对此充满了太多的激情。这个秘密已经被揭示,人们已经看到了光明。
那是一个巨大的变革。人们必须意识到它可以实现民主化。这就是为什么稳定扩散可能最终毫无成效,但它将成为有史以来最伟大的产品之一,因为它改变了许多人对可能性的看法。
DG:Stable Diffusion就像是1984年广告中那个砸碎屏幕的女人,让每个人意识到,“等一下。这对每个人来说都是可以实现的。”所以对我来说,它是我每天的灵感来源,因为外界的一切实际上都相当黯淡,但我认为它有可能成为最大的产品来源之一。

通货紧缩型人工智能

好的,我们可以这样做。你写过一篇关于人工智能通货紧缩方面的论文,你当时是什么意思?
DG:我认为这很有趣,而且我不是第一个观察到这一点的人。总体来说,软件公司上市时所做出的承诺是它具有通货紧缩效应,并且由于软件的通货紧缩效应,我们实际上可以继续降低通货膨胀率。
对我和许多人来说,这实际上有点模糊不清,因为从一天的律师、税务会计或出租车司机的生活中看来,它们并没有太大的区别。当你考虑通货紧缩效应时,免费且充足的能源是一种通货紧缩效应。拥有足够的能量可以让我在一秒钟内飘到家里并烤面包,这是一种通货紧缩效应,因为以前我需要花钱才能做到这些事情而现在不用了。WhatsApp相比打电话为什么会产生通货紧缩效应就不那么清楚了,所以我认为软件直到现在还没有真正具备通货紧缩性。
我认为回顾来看,如果我们能够放大这个画面并回顾过去,使用键盘而不是笔来数字化整个世界的想法,我认为可能只是作为人工智能的引导程序而有用,因为一旦软件具备智能,它就变得非常明显的通缩,因为人们拥有更多的“人力”可供使用。现在,一位律师的力量相当于一百、一千甚至一百万名助理律师。
有时我认为在乐观的情况下理解人工智能的唯一方法是想象你发现了一个充满可以免费工作且非常聪明的人的新国家。我认为原生于人工智能的软件可能会是这样。这显然是一种巨大的通缩效应,实际上可以无边际成本地拥有更多的人力资源。所以,是的,当我们现在思考世界时,我认为每个人都陷入了通胀/通缩的境地,这些术语占据了人们的脑海,而且我们要思考未来可能的通缩效应。我认为软件真正自动化了,而不是昨天那种给你提供几个选项为您排序,或者从这十个 Netflix 电视节目中为您选择了前两个的那种自动化。这不是真正的自动化。
没错。与其让他们决定你想要什么,不如让他们更听从你的指挥,做你需要的事情。
DG:是的。推荐和自动化是有区别的。自动化是你替我做了工作,我没有做工作,所以我有更多的时间,所以我的钱可以用得更远。我认为大型语言模型,相比图像模型,将更大程度上以这种方式真正改变世界。因为今天它们可以完成一个发育不完全的孩子可能做的任务,但随着时间的推移,这将发生变化。
我认为 GPT-4 无论何时发布,都会开始一场军备竞赛。我认为现在很多蓝领工作现在可能相当相似,因为我们仍然没有解决机器人技术和灵巧性方面的问题,事实证明,这是一个非常复杂的问题,但是很多白领工作将因为我们将拥有免费的智力劳动力而发生巨大变化。在你所在的任何 WhatsApp 对话或 Slack 对话中都可以添加一个东西,它将自动工作,从网上收集信息,总结事物。这是真正的工作。
我们已经超过了时间限制。这个太长了。我们必须继续下去,因为我知道有一些人说:“是的,对你来说很好,投资者先生。你对此持乐观态度,但是下游的社会影响呢?”我想我只是提出这一点来承认这个问题是真实存在的。
我还认为有些方面我们不知道会发生什么,这也是一个问题,Stable Diffusion 是个“炸弹”已经爆炸了,因为它已经为现实所接受。这就像互联网一样,如果当权者知道互联网会带来什么,它就不会被允许诞生,但现在已经太晚了。我认为人工智能也有这样的一面,人们的思想现在是开放的。他们知道什么是可能的,他们知道可以创造出什么。
我之前写过一篇关于科技的两种哲学,其中一种是“心灵自行车”哲学,即计算机是你的工具;另一种则是科技照顾你。谷歌和Facebook更多地只是向你推荐东西,“你会喜欢这个,请试试。”而苹果和微软则更多地提供了“我们将为您提供比以往更高效、更大规模实现所需”的工具。
NF:是的,我之前称它们为创造者互联网和消费者互联网。
对。这不是价值观的陈述,无论它是好还是坏。我认为这取决于你是聚合器还是平台,如果你专注于发现或者专注于实现,但我想把所有这些联系起来,这就是为什么我感到兴奋和乐观的原因。因为AI似乎只会成为消费互联网,它只会向您提供服务。而实际上,在普通人的日常工作中可以更加高效地完成更多事情,并且他们不受“OpenAI是否给您许可”的限制。任何人都可以创造任何东西,这非常令人兴奋。
NF:有一个问题我们不知道答案,那就是:我们作为个体或者整个物种在智力上到底受到了多大的限制?我认为开源技术让人们兴奋的原因是它使得创新变得无需获得许可。如果你是产品经理或企业家,你可以直接使用其中一个模型。现在,你甚至不需要知道如何精确地进行训练和尝试构建产品,但看到这种无需获得许可的创造方式所带来的产物还是很有趣的。
Midjourney,我是他们的顾问,看到他们的迅猛发展真是令人难以置信。我认为这个故事最惊人之处在于它体现了这两种趋势。首先,它实际上是一家自力更生的公司,David Holz创造了Leap Motion之后开始使用开源模型,Stable Diffusion的实际前身,并花费数月时间进行调整和优化。他理解到该模型必须具有自己的风格和特色,并且必须默认产生令人愉悦的输出结果。现在Midjourney已成为全球最大的AI产品之一,在Discord上拥有250万用户。因此您可以通过Discord使用它,但我注意到他的Discord比Fortnite、Roblox和Minecraft Discords加起来还要大。所以我认为这可能是世界上最大的一个,即便最大的话,他也已经吸引了数百万人使用Midjourney制作图像。
你可能会问,“这些人是谁?”其中一些故事很有趣。最近David告诉我一个卡车司机的故事,他在卡车停靠站时取消了Netflix,现在他只是在睡前制作图像几个小时,并且完全被此吸引。对我来说,这似乎比观看Netflix和连续观看节目要好得多;它探索了自己的想法和创造力空间,并将其反馈给您。因此,原来有很多人具有这种创造性冲动,但没有工具、手册技能来表达并创造艺术品,而Midjourney或Stable Diffusion等工具为他们提供了这样的机会,这非常令人兴奋。
好了,猫已经被放出来了。这将是有趣的事情,因为技术可以用于好的东西或坏的东西,而且会有很多争斗和战斗,我们应该谈论一下。不过现在我们已经超时20分钟了,感谢你们抽出时间来参加。哦,请快速告诉我关于AIGrant的事情以及即将到来的截止日期。
NF:实际上,这是我和丹尼尔五年前设立的一个项目,旨在向从事人工智能研究的人提供资助。我们向40多位获得了基础性成果的人提供了资金支持。今年我们决定重新启动该项目,但与2017年不同的是,在2022年,需要的不再是新研究,而是产品。因此,我们将其重点转向产品,并组建了一支由Evan Conrad领导的优秀团队。我和丹尼尔共同投入1000万美元到AI Grant中。现在AI Grant将为申请公司和个人提供无需考虑太多就可以接受的交易条件:25万美元现金以及Microsoft通过Azure提供给予价值25万美元云计算服务等其他福利。此外还有众多顾问网络包括Noam Shazeer(Transformer架构共同发明者之一)、Midjourney 的David Holz、Emad Mostaque 等知名专家参与其中,并可享受OpenAI、API服务等其他服务所带来额外收益。目前已经开放申请。
什么时候截止?这是个大问题。
NF:实际上,我认为这个节目播出前两天就截止申请了,但是很高兴在这里宣布我们将接受一些延迟的申请。
使用折扣代码:Stratecchery!
NF:(笑)是这样的。但是,是的,如果在未来一两天出现了什么,我们一定会给予关注。

好吧,Nat和DG,很高兴请来二位。随着这波AI的发展,我很想再做一次访谈,因为AI变化的速度太疯狂了,自从早期的智能手机时代以来,我们还没有看到这种情况。这真的很令人兴奋。

NF:谢谢,Ben。

DG:谢谢,Ben。

参考


-@benthompson:An Interview With Daniel Gross and Nat Friedman about the Democratization of AI

https://stratechery.com/2022/an-interview-with-daniel-gross-and-nat-friedman-about-the-democratization-of-ai/


END


扫码加群,

立变AI🍚!


AI范儿读者群


👇关注、标星哦~


那些prompt了我的,
是否也prompt了你...


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存